多代理增强学习的主要挑战之一是随着代理数量的增加而进行的可伸缩性。如果考虑到时间上考虑的问题,则此问题进一步加剧。当今最新的解决方案主要遵循集中式培训,并通过分散的执行范式进行集中式培训,以应对可伸缩性问题。在本文中,我们提出了依赖时间的多代理变压器,这些变压器可以通过使用熟练处理大输入的变压器来有效地解决时间依赖的多代理问题。我们强调了该方法对两个问题的功效,并使用统计工具来验证策略下生成的轨迹满足任务的概率。实验表明,在两种情况下,我们的方法对文献基线算法具有较高的性能。关键字:多代理增强学习,临时依赖性,变压器,信号温度逻辑
![arxiv:2403.15916v1 [CS.AI] 2024年3月23日PDF文件第1页](/bimg/b/b3ff00b15e0698463da17f6d3da9094a6b72177e.webp)
![arxiv:2403.15916v1 [CS.AI] 2024年3月23日PDF文件第2页](/bimg/2/2f7026a0cad2a1daa9e2c2c16d18d022a69a32cf.webp)
![arxiv:2403.15916v1 [CS.AI] 2024年3月23日PDF文件第3页](/bimg/f/f0d2ba2422580ce61d89cd3abd878a38c74aba19.webp)
![arxiv:2403.15916v1 [CS.AI] 2024年3月23日PDF文件第4页](/bimg/8/897390baee07efa3f11a652ccab9a14785c66b2d.webp)
![arxiv:2403.15916v1 [CS.AI] 2024年3月23日PDF文件第5页](/bimg/0/0cc214a6dda444f2982d8644ff5fe865d29892b9.webp)
